人们用两只眼睛获得原始的三维数据,再由大脑处理信息做出适当的反应。而在过去的十几年中研究者们一直相信光学镜头+计算机算法就能看懂我们的世界,但光学镜头丢失了三维世界的重要信息——深度。
Kinect采用分割策略来将人体从背景环境中区分出来,即从噪音中提取出有用信号。 Kinect可以主动追踪最多两个玩家的全身骨架,或者被动追踪最多四名玩家的形体和位置。在这一阶段,我们为每个被追踪的玩家在景深图像中创建了所谓的分割遮罩,这是一种将背景物体(比如椅子和宠物等)剔除后的景深图像。在后面的处理流程中仅仅传送分割遮罩的部分,以减轻体感计算量。
目标检测与识别之间的区别?
There is some overlap between these two concepts.
The purpose of the object detection is to find where does the object locate, usually it can be treated as a pre-step for object recognition. It can provide several possible object "candidate" to the object recognition process for further verification. In this sense, the features used in object recognition tends to be more detail than those in the detection.
Concerning which is difficult, it is hard to say. It is absolutely not true that object recognition is more difficullt because it use more features. Looking back in the history of face detection and recognition. The realy researchs were concentrated in face recognition, more shape and structure type of features were proposed, ASM, HMM... Those research were mostly worked on calibrated and normalized face images. Later on, people found that detection a face to be further recognized in an open environment was even more channllenge because of all realistic issues, illumiination change, occlusion, although the most used feature for face detection is just color, which in "detail" wise is significantly simpler than shape features.
检测一般用到单帧的信息,主要是依据先验知识、或者显著等特性找到某些感兴趣的区域; 而跟踪是已有目标的位置,在后续帧中找到最佳匹配位置,更侧重目标的匹配上; 其实现在很多的跟踪算法是基于检测的,使得他们间联系更密切。
简单来说:跟踪会比检测复杂一些. 检测:目的是找到(或者静态或者动态); 跟踪:目的是定位(动态) 二者的联系是: (1) 跟踪是基于检测的,必须先定位目标,才能后续跟踪. (2) 如果将动态的检测(例如视频序列检测)分割成一定时间段内的静态检测(每一帧),那么用检测是可以实现类似跟踪的效果(伪跟踪,因为其实还是每一帧做检测).
目标检测就是在视频帧中找到运动的目标,比如在第10帧找到目标A,B 在第11帧中找到a,b,c,这些都是属于目标检测的范畴。 而目标跟踪的目的是证明第10帧中的目标A和第11帧中的a是同一个目标,B和b是同一个,而11帧中的c是新出现的目标。而不能把b弄成了和A,或者a弄成了B。 证明两个目标是同一个的时候原理是匹配。
所以就跟踪来说关键是在很多目标中找最相似的,这个说来就话长了,而且难度很大。 目前opencv中有专门的blobtrack文件实现
3D实时感知、扫描系统
目标跟踪思路:
- 自下而上(数据驱动):不依赖于先验知识,直接从图像序列中获得目标的运动信息并进行跟踪。常用方法:帧差法、背景差法。优点:快。
- 自上而下(模型驱动):依赖于所建模型或先验知识,在图像序列中进行匹配运算从而进行目标定位和跟踪。常用法:粒子滤波。
目标检测:或者在每帧中都进行检测,或者在目标出现时检测。有利用当前帧信息检测的,也有利用连续帧的相关信息检测的。后者最常用的方法是帧间差分。常用的目标检测方法有四类:
- Point Detector: Moravec's 算子, Harris算子, SIFT算子, Affine Invariant Point Detector
- Segmentation: MeanShift, Graph-Cut, Active Contour
- Background Modeling: 混合高斯模型, Eigenbackground, Wall flower, 动态纹理背景
- Supervised Classifiers: 支持向量机, 神经网络, Adaptive Boosting
通用外观表达
动外观模型 - 主动外观模型是通过同时建模目标形状和外观生成的。目标形状由一系列标识的集合定义,类似于基于轮廓的表达方式,标识位于目标的边界或内部。每个标识的外观向量保存为颜色、纹理、梯度等信息。模型建立通过训练过程得到形状和相关外观。
多视角模型 - 该模型包含了多个视角下的目标状态。通过建立不同视角的子空间来表达目标。PCA,ICA等方法都适用于其外观和形状的表达。训练的分类器集合(SVM,贝叶斯网络等)也同样适用。该模型的局限在于占用处理时间较多主动轮廓
主动轮廓曲线将一个闭合轮廓曲线推演为目标边界,从而实现图像分割。这个过程由轮廓的能量函数来操纵。 这个问题需要解决三个方面问题:一是能量函数的确定,二是轮廓曲线的初始化,三是轮廓表达方式的选择。 重点看的文献是-[Paragios and Deriche 2000]。监督学习
目标检测中的监督学习方法,指的是在样本集合中通过对不同视角下的目标的训练过程,学习得到不同目标视角下从输入到输出的映射函数。它是一个分类问题,在目标检测中,学习样本由目标特征对河一个相关的目标类别组成。
特征选择是分类问题中的一个重要方面。特征可以是颜色、纹理、形状、轮廓等常用特征,也可以是目标区域、朝向、外观、概率密度、直方图等。 选择特定特征之后,采用合适的学习算法来训练分类器。如神经网络,Adaptive Boosting,决策树,支持向量机等。在多维空间中建立目标与非目标两个类别之间的超平面实现分类。
通过Cotraining方法可以较少训练分类器所需要的样本容量。核心思想是用两个分类器分别对两个样本集合进行训练,然后相互交换样本继续训练,实验证明这种方法能够取得较好的分类效果,减少了样本数据需求。
- Adaptive Boosting 是通过一些低精度的分类器组合迭代调整权重以找到高精度分类器的一种方法。进一步的信息可以在http://www.boosting.org阅读。
- 支持向量机 是通过寻找最大边界超平面将数据在两个分类之间聚类的方法。超平面的边界由超平面和最近的数据点的距离定义。
[1] 博士2012-3 童晶 基于深度相机的三维物体与人体扫描重建
的问题,提出了一种利用多台Kinect 的三维人体非刚体扫描重建方法。该方法. 首先重建粗糙人体模板,逐帧驱动 .... 第2 章三维扫描与深度相机技术综述. ...... 云台上进行平移或旋转,从而扫描出物体表面完整的几何信息。 图2.3 三维激光 .... 考虑旋转变换与平移变换,仅需确定6 个自由度,因此只需要很少组的对应点对. 即可确定此刚体 ...
针对室内服务机器人在实际应用中的需求, 提出一种结合三维点云分割和局部特征匹配的实时物体识别系统. 该系统首先基于三维点云实现快速有效的物体检测, 然后利用物体检测的结果定位物体在彩色图像中的区域, 并采用基于 SURF 特征匹配的方法识别出物体的标识. 实验结果表明, 该系统可较好地满足室内服务机器人物体检测与识别的实时性和可靠性要求.
A Statistical Method for 3D Object Detection Applied to Faces and Cars
该算法采用多视角训练样本,可用于检测不同视角下的物体,如人脸和车,是第一个能够检测侧脸的算法。
Face Alignment at 3000 FPS via Regressing Local Binary Features
人脸对准通过采用局部学习的准则降低随机森林(random forest)的任务难度,以得到更好的局部特征(local feature)。同时,整体上的结构学习帮助算法更加鲁棒。这个项目实现了快速的人脸对准以及人脸跟踪。在相同精度下,它比以往的方法快了数十倍,在PC上单核3000FPS,手机上单核300FPS。这个结果很令人振奋,因为手机及移动设备已经很大程度的改变人们的生活方式,可是相比PC,手机的处理能力有限,那么就需要更加快速稳定的算法。这个工作就为在手机及移动设备对人脸的实时处理提供了坚实的基础。